智能论文笔记

Understanding microbiome dynamics via interpretable graph representation learning

Kateryna Melnyk , Kuba Weimann , Tim O. F. Conrad

分类：机器学习 | (统计)机器学习

2022-03-02

微生物组构成中的大规模扰动与人类生理的健康和功能密切相关，无论是驱动力还是后果。但是，由于微生物之间的大量复杂相互作用，了解健康和疾病个体的微生物组轮廓的差异可能会变得复杂。我们建议将这些相互作用建模为随时间变化的图，其节点是微生物，边缘是它们之间的相互作用。由于需要分析这种复杂的相互作用的需要，我们开发了一种方法，该方法可以学习时间不断发展的图表的低维表示，并保持在高维空间中发生的动力学。通过我们的实验，我们表明我们可以提取图形特征，例如节点簇或边缘簇，这些节点或边缘对模型具有最大影响，以学习低维表示。这些信息对于鉴定与临床疾病密切相关的微生物以及它们之间的相互作用至关重要。我们对合成和现实世界微生物组数据集进行了实验。

translated by 谷歌翻译

Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL

Jakub Grudzien Kuba , Xidong Feng , Shiyao Ding , Hao Dong , Jun Wang , Yaodong Yang

分类：人工智能

2022-08-02

智能机器之间合作的必要性已在人工智能（AI）研究界普及了合作的多代理增强学习（MARL）。但是，许多研究的努力一直集中在开发实用的MARL算法上，其有效性仅在经验上进行了研究，从而缺乏理论保证。正如最近的研究所表明的那样，MARL方法通常达到奖励单调性或收敛性次优的性能。为了解决这些问题，在本文中，我们介绍了一个名为异质的镜像学习（HAML）的新颖框架，该框架为MARL算法设计提供了一个通用模板。我们证明，源自HAML模板的算法满足了关节奖励的单调改善的所需特性以及与NASH平衡的收敛性。我们通过证明当前最新的合作社Marl算法，HATRPO和HAPKO实际上是HAML实例，来验证HAML的实用性。接下来，作为我们理论的自然结果，我们提出了两种众所周知的RL算法HAA2C（用于A2C）和HADDPG（用于DDPG）的HAML扩展，并证明了它们针对StarcraftII和多代理Mujoco任务的强大基准的有效性。

translated by 谷歌翻译

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

Muning Wen , Jakub Grudzien Kuba , Runji Lin , Weinan Zhang , Ying Wen , Jun Wang , Yaodong Yang

分类：机器学习

2022-05-30

GPT系列和BERT等大型序列模型（SM）在视觉，语言以及最近的强化学习任务上表现出了出色的性能和概括功能。一个自然的后续问题是如何将多代理决策抽象成SM问题，并受益于SMS的繁荣发展。在本文中，我们介绍了一种名为多代理变压器（MAT）的新型架构，该结构有效地将合作的多代理增强学习（MARL）施加到SM问题中，其中任务是将代理的观察顺序映射到代理的最佳动作序列中。我们的目标是在Marl和SMS之间建造桥梁，以便为MARL释放现代序列模型的建模能力。我们垫子的核心是一个编码器架构，它利用多代理优势分解定理将联合策略搜索问题转换为顺序决策过程。这仅适用于多代理问题的线性时间复杂性，最重要的是，具有单调性能改进保证。与以前的艺术（例如Decorment Transformer Fit仅预先收集的离线数据）不同，MAT通过在线试验和环境中的错误进行培训。为了验证MAT，我们对StarcraftII，多代理Mujoco，灵巧的手操纵和Google Research Football Benchmarks进行了广泛的实验。结果表明，与Mappo和Happo在内的强大基线相比，MAT可实现卓越的性能和数据效率。此外，我们证明MAT是一位出色的少数人，无论代理人的数量变化如何，MAT都是看不见的任务。请参阅我们的项目页面，网址为https://sites.google.com/view/multi-agent-transformer。

translated by 谷歌翻译

Mirror Learning: A Unifying Framework of Policy Optimisation

Jakub Grudzien Kuba , Christian Schroeder de Witt , Jakob Foerster

分类：机器学习 | 人工智能

2022-01-07

一般政策改进（GPI）和信任区域学习（TRL）是当代强化学习（RL）内的主要框架，其用作解决马尔可夫决策过程（MDP）的核心模型。不幸的是，在他们的数学形式中，它们对修改敏感，因此，实现它们的实际实例化不会自动继承其改进保证。结果，可用严格的MDP-溶剂的光谱窄。实际上，许多最先进的（SOTA）算法，例如TRPO和PPO，不能被证明收敛。在本文中，我们提出了\ Textsl {镜像学习} - 对RL问题的一般解决方案。我们揭示了GPI和TRL，但在这个算法的近似空间内的小点，拥有单调改善性，并收敛到最佳政策。我们表明，RL的几乎所有SOTA算法都是镜像学习的实例，因此表明其实证性能是其理论属性，而不是近似类比的结果。令人兴奋的是，我们表明镜像学习与收敛保证的策略学习方法开辟了全新的全新空间。

translated by 谷歌翻译

Interlocking Backpropagation: Improving depthwise model-parallelism

Aidan N. Gomez , Oscar Key , Kuba Perlin , Stephen Gou , Nick Frosst , Jeff Dean , Yarin Gal

分类：机器学习 | 人工智能

2020-10-08

近年来，最先进神经网络的参数的数量急剧增加。这种对大规模神经网络感兴趣的激增具有促使新的分布式培训策略的发展，从而实现了这种模型。一种这样的策略是模型平行分布式培训。不幸的是，模型 - 并行性遭受资源利用率差，导致资源浪费。在这项工作中，我们改进了最近的理想化模型 - 并行优化设置：本地学习。由于资源利用率差，我们在当地和全球学习之间介绍了一类中介战略，称为联锁反向化。这些策略保留了本地优化的许多计算效率优势，同时恢复全球优化实现的大部分任务性能。我们评估了我们对图像分类的策略和变压器语言模型，发现我们的策略一致地在任务绩效方面出现本地学习，并在培训效率方面进行全球学习。

translated by 谷歌翻译